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基于 数据 密度 的 半 监 督 自 训练 分 类 算法 


XM. ERSA 
(广东 工业 大 学 应 用 数学 学 院 , 广州 510520) 


JE 要 : 在 实际 的 分 类 任务 中 ， 无 标记 样本 数量 充足 而 有 标记 样本 数量 稀少 的 情况 经 常 出 现 ， 目 前 处 理 这 种 情况 的 常 
用 方法 是 半 监 督 自 训练 分 类 算法 。 提 出 了 一 种 基于 数据 密度 的 半 监 督 自 训 练 分 类 算法 ， 该 算法 首先 依据 数据 的 密度 对 
数据 集 进行 划分 ， 从 而 确定 数据 的 空间 结构 ; 然后 再 按照 数据 的 空间 结构 对 分 类 器 进行 自 训 练 的 和 迭代， 最 终 得 到 一 个 
新 的 分 类 器 。 在 UCI 中 6 个 数据 集 上 的 实验 结果 表明 ， 与 三 种 监督 学 习 算 法 以 及 其 分 别 对 应 的 自 训练 版 本 相 比 ， 提 出 
的 算法 分 类 效果 更 好 。 
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Self-training semi-supervised classification based on density of data 


Ai Zhenpeng, Wang Zhenyou 
(Department of Applied Mathematicslege Guangdong University of Technology, Guangzhou 510520, China) 


Abstract: It is a common problem in many practical applications that unlabeled samples is sufficient but labeled ones is very 
rare. A successful method to tackle this problem is self-training semi-supervised classification. In this paper, a self-training semi- 
supervised classification method is introduced, in which entire data is divided into three parts based on density of data, so that 
the real structure of data space could be found. And then, a framework for self-training semi-supervised classification, in which 
the structure of data space is integrated into the self-training iterative process to help train a better classifier, is proposed. 
Experiments on 6 data sets from UCI show that the classifier get from the method proposed have a better performance than the 
ones get from supervised method with few labeled samples and standard self-training semi-supervised classification method. 
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学 习 虽 则 是 利用 了 流 形 假设 。 还 有 一 类 半 监 督学 习 的 方法 是 自 

标记 的 方法 ， 即 自 训 练 和 协同 训练 。 其 中 自 训练 方法 首先 利用 
在 数据 挖掘 和 机 器 学 习 中 ， 监 督学 习 是 一 个 活跃 的 研究 领 ” 初始 的 有 标记 样本 训练 出 一 个 分 类 器 ， 然 后 利用 该 分 类 器 对 无 
域 ， 到 目前 为 止 ， 已 经 被 广泛 应 用 于 异常 检测 ， 生 物 医 学 ， 人  ” 标记 样本 进行 打 标 记 ， 并 选择 置信 和 度 高 的 被 打上 标记 的 样本 加 
脸 识别 和 文本 分 类 等 诸多 地 方 上 和。 监督 学 习 依 赖 于 利用 充足 。” 入 到 有 标记 样本 和 集中， 不 断 迭 代 ， 直 到 达到 停止 条 件 ， 以 这 样 
的 有 标记 样本 训练 出 一 个 优秀 的 分 类 器 ， 再 利用 该 分 类 器 来 完 ”的 方式 来 扩大 有 标记 样本 的 容量 ， 例 如 Yarowsky 的 文章 中 提 
成 分 类 任务 。 然 而 在 实际 应 用 中 ， 获 得 充足 的 有 标记 样本 本 身 ” 到 的 自 训 练 算法 "。 
就 是 一 件 困 难 的 事情 ， 与 此 相反 ， 获 得 大 量 的 无 标记 样本 则 会 然而 , 当初 始 有 标记 样本 不 能 够 体现 整个 数据 的 空间 结构 ， 
相对 容易 很 多 。 而 监督 学 习 在 只 有 少量 的 有 标记 样本 时 往往 不 或 者 有 标记 样本 数量 过 少时 ， 自 训练 算法 的 效果 很 不 理想 。 基 
能 训练 出 一 个 性 能 良好 的 分 类 器 ， 并 且 因 为 没有 对 大 量 的 无 标 ” 为 最 初始 的 分 类 器 对 无 标记 样本 的 分 类 效果 并 不 好 ， 那 么 之 后 
记 样 本 加 以 利用 ， 造 成 了 极 大 的 浪费 。 半 监督 学 习 的 目的 就 是 ”的 打 标 记过 程 就 相当 于 引入 了 噪声 ， 在 这 样 的 情况 下 ， 自 训练 
要 使 用 无 标记 样本 来 提升 监督 学 习 算法 的 性 能 。 算法 可 能 会 比 单纯 地 使 用 有 标记 样本 进行 监督 学 习 的 效果 更 差 。 
近年 来 ， 有 许多 半 监 督学 习 的 方法 被 提出 。 这 些 方法 大 多 ”Adankon 和 Cheriet 提出 了 一 种 叫 help-training 的 自 训 练 算法 外， 
基于 数据 的 聚 类 假设 和 流 形 假设 , 例如 Joachims 提出 的 TSVM 使 用 生成 式 模型 来 训练 分 类 器 ， 但 这 个 方法 依然 没有 解决 自 训 
算法 外 就 是 基于 聚 类 假设 。 而 Zhu 等 人 提出 的 基于 图 的 半 监 督 ” 练 的 问题 ， 因 为 生成 式 的 模型 仅仅 是 依靠 有 标记 样本 得 到 的 。 
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Gan 等 人 引入 了 模糊 K-means 来 优化 自 训练 算法 加， 并 取得 了 
较 好 的 效果 ,但 是 对 于 非 高 斯 分 布 的 数据 ,分 类 效果 并 不 理想 。 
在 本 文中 ， 本 文 提 出 了 一 种 基于 数据 密度 的 自 训 练 分 类 算法 ， 
算法 首先 使 用 基于 密度 的 方法 确定 整个 数据 集 的 真实 空间 结构 ， 
然后 按照 数据 的 空间 结构 和 欠 代 地 对 分 类 器 进行 训练 。 本 文 提出 


的 算法 有 以 下 两 点 优势 : a) 对 非 高 斯 分 布 的 数据 依然 有 较 好 的 
分 类 效果 。 值 得 一 提 的 是 ， 在 实际 应 用 中 ， 数 据 许多 情况 下 


不 是 高 斯 分 布 ;b) 可 以 使 用 任意 监督 学 习 的 算法 作为 分 类 器 ， 充 
分 发 挥 不 同 监督 学 习 算法 的 优势 。 


1 ”数据 空间 结构 的 确定 


在 处 理 无 标记 数据 时 ， 聚 类 是 一 种 能 够 发 现 数 据 空间 结构 
的 重要 方法 。 聚 类 算法 有 很 多 ， 比 如 k-means 就 是 一 个 易于 实 
现 并 在 多 数 情况 下 效果 良好 的 算法 ， 但 k-means 的 缺点 在 于 处 
里 非 高 斯 分 布 的 数据 时 效果 不 佳 。 而 DBSCAN 是 一 个 比较 有 
代表 性 的 基于 密度 的 聚 类 算法 00， 较 k-means 的 优势 在 于 它 将 
艇 定义 为 密度 相连 的 点 的 最 大 集合 ， 能 够 把 具有 足够 高 密度 的 
区 域 划分 为 徐 ， 并 可 在 有 噪声 的 数据 空间 中 发 现任 意 空间 结构 
的 聚 类 。 本 文 对 数据 空间 结构 的 确定 方法 就 是 基于 这 样 的 想法 。 
1.1 基于 数据 密度 的 空间 结构 确定 方法 

在 本 文中 , Wt L-(Gs. y)) 是 有 标记 样本 集 ， 其 中 冯 是 训练 


样本 ， Ji 是 它 的 标记 ， M, € (0.0... 0] , i=1,2,.…,n > S 是 类 
3L. U — Doasxuos ao 是 无 标记 样本 集 。 则 样本 点 把 的 密 
度 定义 如 下 : 
Pi =2,5(d; -d,) (1) 
其 中 : 
1,x<0 
Srt 


dj RIR x, 到 x 的 距离 ， de 被 称 为 截断 距离 ， 是 一 个 与 数 
据 集 本 身 有 关 的 常数 。 WA, pL 的 值 等 于 到 距离 小 于 4d. 的 点 
的 个 数 。 取 密度 闷 值 为 o, XF xR, EARE PS Ix 
就 被 称 为 核心 点 。 若 应 小 于 Do ， 且 把 的 4 领域 内 有 核心 点 
Ti] ox, 就 被 称 为 边界 点 ， 若 大 既 不 是 核心 点 又 不 是 边界 点 ， 那 么 
就 叫做 噪声 点 。 通 过 将 数据 集中 的 每 一 个 样本 点 标注 为 核心 
点 、 边 界 点 或 噪声 点 ， 那 么 不 论 该 数据 是 高 斯 分 布 还 是 其 他 分 
布 ， 本 文 都 能 够 发 现 数据 真实 的 空间 结构 。 在 图 1 中 , A. B 两 
类 总 共 40 个 样本 点 Do 按照 如 下 分 布 分 别 随 机 产生 : 

A 类; ((a,b)|a ~ N(3.5,0.5,b ~ U(,9)},i=1,2,.……,20 

B3&: ((a,b)|a ~ N(6.5,0.5),b ~ U(L9)),i 2 21,22,...,40 

其 中 No) ÆA B AB. o? 为 方差 的 高 斯 分 布 ， 
U(a,b) 是 从 a F) b 的 均匀 分 布 。 接 下 来 利用 式 (1)， 首 先 可 以 算 
出 每 个 点 的 密度 值 p;, 然后 按照 上 述 方法 将 样本 点 分 为 核心 点 ， 
边界 点 和 噪声 点 ， 最 后 如 图 2 所 示 ， 得 到 了 数据 的 真实 空间 结 
构 。 
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图 2 整个 数据 集 的 真实 空间 结构 


1.2 参数 d. 和 po 的 选取 

根据 文献 [11] 中 的 结论 ，d, 的 取 值 要 使 得 所 有 样本 点 的 平 
均 邻 居 个 数 在 样本 总 数 的 1% 到 2% 范 围 内 。 具 体 选 取 方 式 如 下 : 
首先 计算 出 所 有 的 dy, 然后 将 dj (i< 万 按照 升序 排列 , 得 


1 
到 序列 di,d;,,……, dy , 其 中 d, «d, € «d, d Mec NUS , 


NN 是 样本 点 数目 ， 最 后 令 
d, = d say; (2) 
t € (0,D ,用 于 将 d, 控制 在 合适 的 范围 内 , f (Mr) 表示 对 Mt 

的 乘积 进行 四 舍 五 入 取 整 。 


而 po 的 选取 则 以 核心 点 能 够 描述 出 数据 的 整体 空间 结构 
为 目标 , 局 部 更 为 细微 的 结构 则 由 依赖 于 核心 点 和 d 的 边界 点 
来 完成 。 po 的 具体 选取 方式 与 de 类似: 

首先 计算 出 所 有 的 p;， 并 将 pi 按照 升序 排列 ， 得 到 
Pe Py Puo PRE 


Po = Pon) (3) 

ER, 8(Nh) 表示 对 Nh 的 乘积 四 舍 五 入 取 整 ， 而 
he(0,D 用 于 将 po 控制 在 合适 范围 内 。 
如 前 文 所 述 ， 不 论 数 据 是 高 斯 分 布 还 是 其 他 形状 的 分 布 类 
型 , 只 需 通 过 式 @@@ 取 到 合适 的 阔 值 p。 M d., 并 利用 式 四 计算 
每 个 样本 点 无 的 密度 p;， 就 可 以 将 数据 分 为 核心 点 ,边界 点 和 
噪声 点 ， 进 而 得 到 数据 的 空间 结构 ， 而 没有 迭代 的 过 程 ， 因 此 


m 
xir 
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— 
TP sam, s aca d Ql da qa 
计算 速度 很 快 ， 非 常 适 合用 在 自 训练 算法 中 。 类 器 C 的 流程 图 。 算 法 伪 代 码 如 下 : 


输入 : 有 标记 样本 集 LL ， 无 标记 样本 集 U ,参数 Po deo 
输出 : 分 类 器 C 。 


2 ”基于 数据 空间 结构 的 自 训 练 算法 


在 本 文 的 这 个 部 分 将 会 给 出 一 个 半 监 督 自 训 练 的 具体 方法 ， for T, 2 LOU 中 的 每 个 点 区 DO 
在 该 方法 中 ， 数 据 集 的 真实 空间 结构 将 会 在 迭代 训练 分 类 器 时 HAR CD 计算 p, 
被 考虑 进去 。 具 体 步 又 描述 如 下 : if p,>p, then 
a) 通 过 将 所 有 样本 点 分 类 为 核心 点 ， 边 界 点 和 噪声 点 ， 得 3t x, 标记 为 核心 点 
到 数据 集 的 真实 空间 结构 else if D «y and $BH S(x, d.) 中 有 核心 点 then 
b) 利 用 初始 有 标记 集 工 训练 得 到 一 个 分 类 器 C 将 矿 标 记 为 边界 点 
0c) 利用 分 类 器 C 对 U 中 所 有 核心 点 友 代 地 打 标 记 ， 同 时 更 else 
新 工 和 UU， 并 再 次 利用 工 训练 C， 直到 U 中 所 有 核心 点 都 被 打 将 x, 标记 为 噪声 点 
上 标记 do 
dd) 与 c) 类 似 , 利用 分 类 器 C 对 U 中 所 有 边界 点 迭代 地 打 标 利用 L 训练 得 到 分 类 器 C 
记 ， 同 时 更 新 工 和 U ， 并 再 次 利用 工 训练 C ,直到 U 中 所 有 边 while U 中 有 核心 点 DO 
界 点 都 被 打上 标记 。 取 核 心 点 所 eU ， 分 类 器 C 对 x, 打 标记 后 得 到 新 的 有 ”标记 样本 


x: SEL-LOx' U-UIx, HALI 4359 C 


c 


while U 中 有 边界 点 do 
取 边 界 点 EU ,分 类 器 Cou x, 打 标记 后 得 到 新 的 有 ”标记 样本 


SEN L=LUx U-UIx. HALI 388 C 


, 
Xp 


return 分 类 器 C. 


计算 每 个 点 x 的 密度 


3 ”实验 结果 与 分 析 


在 本 章 中 ， 将 基于 数据 密度 的 自 训练 算法 与 三 种 监督 学 习 
算法 以 及 它们 分 别 对 应 的 标准 自 训 练 算法 进行 比较 ， 并 对 得 到 
的 实验 结果 进行 分 析 。 
3.1 实验 设计 
3.1.1 实验 数据 

在 实验 中 ， 使 用 了 六 个 真实 数据 集 来 测试 算法 的 表现 ， 这 
些 数据 集 全 部 来 自 于 UCI， 表 1 中 是 这 些 数据 集 的 详细 信息 。 
在 实验 中 ， 本 文 首先 将 每 一 个 数据 集 随机 划分 为 两 部 分 ， 第 一 
部 分 占 总 样本 数 的 2596, 作为 测试 集 7 。 剩 下 75% 作 为 训练 集 。 
然后 再 将 训练 集 随机 分 为 两 部 分 ， 其 中 10% 保 留 标记 ， 作 为 有 
标记 样本 集 工 ，90% 去 掉 标 记 ， 作 为 无 标记 样本 集 尽 。 


将 工分 为 核心 点 , 边界 


dl 数据 集 信息 

数据 名 称 样本 数目 属性 数目 类 别 数 

iris 150 4 3 

新 的 有 标记 

banknote 1372 4 2 

seeds 210 7 3 

haberman 306 3 2 

输出 分 类 器 C 
pima 768 8 2 
图 4” 自 训练 过 程 ii Hs 13 : 


如 图 3 是 算法 a) 步 中 确定 数据 空间 结构 的 流程 图 ， 图 4 是 3.1.2 参数 设置 
b) 步 ~d) 步 中 对 U 中 核心 点 和 边界 点 迭代 打 标 记 , 并 得 到 最 终 分 选择 了 最 近邻 算法 (KNN)、 支持 向 量 机 (SVM)、 单 层 神经 网 
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络 (SLNN) 以 及 它们 分 别 对 应 


的 标准 自 训 练 算法 与 本 文 提出 的 


基于 数据 密度 的 自 训 练 算法 进行 对 比 ， 这 些 算法 的 参数 信息 展 
示 在 表 2 中 。 表 3 中 的 是 将 数据 标准 化 处 理 以 后 ， 不 同 数据 集 
Po 和 的 选取 情况 。 
表 2 算法 相关 参数 
算法 名 称 记号 参数 
最 近邻 算法 KNN 最 近邻 数 K=5 
支持 向 量 机 SVM 
隐藏 层 神 经 元 数目 64， 最 
单 层 神经 网 络 SLNN 大 迭代 数 2000， 学 习 率 
0.005 
标准 自 训 练 算 法 ST 
改进 的 自 训 练 算法 OST E 
43 ”po 和 4d. 选取 情况 
数据 名 称 Po d, 
iris 3 0.3877 
banknote 20 0.4895 
seeds 4 0.7842 
haberman 6 3.0000 
pima 8 1.3339 
wine 2 1.9763 
3.2 ”实验 结 
K 4~6 中 是 50 次 实验 结果 的 平均 正确 率 和 方差 ， 每 一 次 
实验 都 重新 随机 抽样 得 到 7 LAMU 。 
表 4 基于 KNN 的 实验 结果 
算法 
数据 集 
KNN STKNN OSTKNN 
iris 0.701/0.053 0.726/0.077 0.743/0.036 
banknote 0.954/0.014 0.970/0.016 0.979/0.009 
seeds 0.870/0.041 0.899/0.060 0.905/0.025 
haberman 0.712/0.062 0.717/0.085 0.738/0.040 
pima 0.665/0.047 0.689/0.066 0.710/0.031 
wine 0.913/0.068 0.957/0.104 0.969/0.047 
表 5 基于 SVM 的 实验 结果 
算法 
数据 集 
SVM STSVM OSTSVM 
iris 0.734/0.042 0.744/0.054 0.753/0.028 
banknote 0.972/0.009 0.988/0.018 0.979/0.006 
seeds 0.913/0.037 0.920/0.051 0.914/0.019 
haberman 0.720/0.051 0.747/0.076 0.758/0.038 
pima 0.691/0.039 0.702/0.042 0.720/0.025 
wine 0.966/0.041 0.969/0.042 0.979/0.027 


基于 SLNN 的 实验 结果 


算法 
STSLNN 


数据 自 


AR 


SLNN OST-SLNN 


iris 0.701/0.055 0.7277/0.064 0.736/0.039 


banknote 0.979/0.008 0.981/0.016 0.988/0.006 


seeds 0.886/0.041 0.908/0.068 0.914/0.030 


haberman 0.694/0.131 0.682/0.133 0.733/0.062 


pima 0.683/0.045 0.710/0.062 0.712/0.033 


wine 0.945/0.048 0.960/0.060 0.979/0.034 


取 六 个 样本 集 上 ， 无 论 是 从 正确 率 还 是 从 稳定 性 来 说 ， 


通过 表 4-6 的 结果 可 知 ， 提 


法 在 所 选 
全 部 优 


训练 算 


出 的 半 监督 


于 仅仅 使 ) 


j 有 标记 样本 的 监督 学 习 算法 ， 而 在 大 多 数 样本 上 的 


表现 比 标准 


4 


算法 利用 密度 和 距离 将 数据 集 划 


的 半 监 督 自 训练 算法 要 好 ， 且 明显 更 稳定 。 


结束 语 
本 文 提 


Li 
ti J 


种 基于 数据 密度 的 半 监 督 自 训练 分 类 算法 ， 
分 成 三 类 ， 进 而 确定 数据 的 空 


间 结 构 , 然 后 按照 数据 的 空间 结 
最 终 得 到 


构 对 分 类 器 进行 自 训练 的 迭代 ， 
在 本 文中 ,选择 了 UCI 上 的 6 个 


一 个 新 


的 分 类 器 。 


实数 据 集 进行 实验 ， 并 以 三 种 常用 
类 器 为 基础 来 进行 自 训 
去 得 到 的 分 类 器 ， Me LA ADR 


应 


的 监督 学 习 算法 所 得 到 的 分 
练 。 实 验 结果 表明 ， 通 过 本 文 提出 的 算 
体 优 于 仅仅 使 用 有 标记 样本 


进行 监督 学 习 和 使 用 传统 自 训 绢 


到 的 分 类 器 。 


在 今后 ， 将 进 


步 对 距离 参数 4 和 密度 参数 po 的 自 适 应 取 值 


A 


进行 研究 ， 避 免 需要 多 次 的 实验 来 人 为 确定 这 两 个 参数 。 
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